增强学习(RL),一个人工智能的子场(AI),重点是培训代理,通过与环境互动以最大程度地提高累积奖励来做出决策。本文概述了RL的概述,涵盖了其核心概念,方法和资源以进行进一步学习。它对基本组成部分(例如国家,行动,政策和奖励信号)提供了详尽的解释,以确保读者发展扎实的基本理解。此外,本文提出了各种RL算法,根据关键因素(例如,基于模型,基于价值,基于策略,基于策略,基于策略和其他关键因素)进行分类。还提供了用于学习和实施RL的资源,例如书籍,课程和在线社区。通过提供清晰的结构化介绍,本文旨在简化初学者的RL复杂性,从而为理解和应用实时技术提供直接的途径。
![arxiv:2408.07712v3 [cs.ai] 2024年12月3日PDF文件第1页](/bimg/a/a5ef85107efdbf5b7541de7b459be24c7ce8e7a8.webp)
![arxiv:2408.07712v3 [cs.ai] 2024年12月3日PDF文件第2页](/bimg/2/22571dda0b134f5231467b987ef524c701328591.webp)
![arxiv:2408.07712v3 [cs.ai] 2024年12月3日PDF文件第3页](/bimg/2/26ac26433ae1858b44ed88e4b788868f3f9c72b5.webp)
![arxiv:2408.07712v3 [cs.ai] 2024年12月3日PDF文件第4页](/bimg/d/dec9a016c7662c038ec6caccabe32b25c45b9ad1.webp)
![arxiv:2408.07712v3 [cs.ai] 2024年12月3日PDF文件第5页](/bimg/b/bfc7a683fc7defb83f1f3df45a33bf0fd05ec2be.webp)
